Twitterの全文ダウンロードがはじまったので早速ダウンロードしてみたら日本語が文字化けしています - blog.jgs.me
https://gyazo.com/6f188e71acc55ca10bd8bb00b9e1f9a7
今のところ、英語圏ユーザから順次はじまっているそうで僕もダウンロードできるようになっていたのでさっそくリクエストを送りました。
https://gyazo.com/773e432ef49d44f9a7e845d4eea4b75e
設定画面にリクエストのボタンが追加されています。
リクエストを送ると、しばらくしてTwitterからメールがくるのでそのリンクからzipファイルをダウンロードします。何時間かかるのかしら!と身構えていたら、200kツイート超えの僕でもものの3分程度でダウンロードが完了しました。 zipを解凍すると
https://gyazo.com/0beffe2bfe310a661598688675c13792
これは、data/js/tweets/の中にJavascriptで書かれたjsonっぽいデータが大量にあってそれを読んでいる感じです。ここは問題なくUTF-8のTwitterらしいモダンな感じのページをモリモリ見れます。 https://gyazo.com/27a8d06ec01a57970252bf4146773550
HEXで読んでみると、文字化けしたデータが大元のデータに入っているようです。 そういうわけなので、とりあえずはdata/js/tweets/*.jsの方を解析しましょう、という感じですね。
それにしても、なにがどうしてcsvだけ化けてるんだろう・・・。 December 20th, 2012 5:41pm